4.14 Nested Cross-Validation
size-limited datasets
a large (or, ideally infinitely) sized test set
モデルの真の汎化誤差のバイアスのない見積もりを与える
we are always on a quest of finding "better" workaround for dealing with size-limited datasets
「サイズに限りがあるデータセットに対処するためによりよいワークアラウンドを見つける探求を常にしている」
(これまでに論じられているが)
訓練セットに多くのデータを取りすぎると(テストセットが小さくなり)信頼できない汎化性能の見積もりとなる
(テストセットのサンプルサイズによるvarianceの話)
逆にテストセットに多くのデータを取り分けすぎると、訓練セットが小さくなりモデルの汎化性能を損なう
(全データで訓練すると汎化性能は向上すると考えられるが、どれくらいになるかがわからないという話があった)
Almost always, we also do not know the ideal settings of the learning algorithm for a given problem or problem domain.
「ほとんどたいてい、与えられた問題や問題ドメインへの学習アルゴリズムの理想的な設定を私たちは知らない」
Hence, we need to use an available training set for hyperparameter tuning and model selection.
「それゆえ訓練セットをハイパーパラメタチューニングとモデル選択に使う必要がある」
However, if we select the "best hyperparameter settings" based on the average k-fold performance or the *same* test set, we introduce a bias into the procedure, and our model performance estimates will not be unbiased anymore
「しかしながら、k fold平均の性能や同一のテストセットに基づき"最良のハイパーパラメタ設定"を選ぶならば、手順にバイアスを持ち込んでおり、モデルの汎化性能の見積もりはバイアスがないとはもはや言えない」
we would need a decently-sized, independent test set that we have not seen before to get an unbiased estimate of the models’ performance. Often, this is not affordable.
「モデルの汎化性能をバイアスなく見積もるためには、以前に見ていないかなりのサイズの独立したテストセットを必要とするが、それはしばしば入手可能でない」
The nested cross-validation procedure offers a workaround for small-dataset situations that shows a low bias in practice where reserving data for independent test sets is not feasible.
「独立したテストセットとしてデータを取っておくのが現実的でないという小さいデータセットの状況に対し、nested交差検証の手順は実際に低いバイアスを示すというワークアラウンドを提供する」
the nested cross-validation approach can reduce the bias, compared to regular k-fold cross-validation when used for both hyperparameter tuning and evaluation, can be considerably be reduced
「ネストした交差検証のアプローチは、ハイパーパラメタチューニングと評価の両方に使われる通常のk分割交差検証と比較してバイアスを減らす」
(can be considerably be reducedは文法的に壊れているかも)
The method of nested cross-validation is relatively straight-forward as it merely is a nesting of two k-fold cross-validation loops: the inner loop is responsible for the model selection, and the outer loop is responsible for estimating the generalization accuracy
「2つのk分割交差検証ループを単にネストするだけなので、nested交差検証の手法は比較的わかりやすい」
「内側のループはモデル選択に責任を持ち、外側のループは汎化されたaccuracyを見積もることに責任を持つ」
Figure 22は5x2 setup
5-fold cross-validation in the outer loop, and 2-fold cross-validation in the inner loop
「(汎化accuracyを見積もる)外側のループは5分割交差検証」
「(ハイパーパラメタチューニングをしてモデル選択する)内側のループは2分割交差検証」
this is not the same as Dietterich’s 5x2cv method,
オリジナルデータセットを5 foldに分ける
訓練に使う4fold分のデータで2分割交差検証
Train with optimal parameters from the inner loop; then average as an estimate of the generalization performance
「(Outer loopでは)内側のループから分かる最適なパラメタで訓練。Outer loopの平均は汎化性能の見積もりとなる」